Tag: vision language model

Total 2 articles

SmolDocling: 256M OCR Model Processes Documents in 0.35s on Consumer GPUs

SmolDocling OCR VLM Vision Language Model

IBM Research's SmolDocling, a 256M-parameter vision-language model, delivers fast document OCR and multimodal processing at 0.35s per page on consumer GPUs, handling text, formulas, code and charts efficiently.

Mar 18, 2025 • 3 min read

News

Ivy-VL Launch: 3B Parameters Dominates Edge Visual AI, Surpassing Qwen/InternVL

AI Safeguard Multimodal Vision Language Model Edge AI Lightweight Model Ivy-VL

Ivy-VL: 3B lightweight vision-language model outperforms 7B models, enables real-time AI glasses, ranks #1 on OpenCompass under 4B. Open-source edge AI solution by AI Safeguard, CMU & Stanford.

Dec 13, 2024 • 4 min read

News